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@) Spracherkennungspegelsteuervorrichtung in einem Spracherkennungstefefongerat und zugehoriges 
Steuerverfahren 

(57) Eine Vorrichtung fur das Steuern des Spracherken- 
nungspegels eines Spracherkennungstelefongerates in 
Abhangigkeit vom Umgebungslarm umfa&t einen Ton- 
speicher fur das Aufzeichnen von Sprachbefehlen, einen 
Larmpegeldetektor fur das Erkennen des Pegels des 
durch ein Mikrofon eingegebenen Umgebungslarmes, 
eine Steuerung fur das Bestimmen des Spracherken- 
nungspegels gemaft dem erkannten Larmpegel, und ei- 
nen Sprachbefehlserkennungsprozessor fur das Verarbei- 
ten des gesprochenen Sprachbefehls auf der Basis des 
bestimmten Spracherkennungspegels. 
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Beschreibung ^B!^ 
HINTERGRUND DER ERFINDUNG 
GEBIE'f DER ERFINDUNG 

Die votiiegende Erfindung be/ieht sich auf ein Sprachcrkcnnungsiclcfongerai unci insbesondere auf eine Spracherken- 
nungsvomchlung und ein dafur verwendetes Steuerverfahren durch das Einslellen des RL^erenxspracherkennungspegels 
in AbhangigkeitVom Umgebungslarm. wenn der orale eingegebene (nachfolgend als "gesprochen" bezeichnet) Sprach- 
10 b e f e h 1 mil dem re g i s ( ri e r t e n S p rue h be f e h 1 ve rg 1 i c he n w i ix I . 

BESCHREIBUNG DES STANDES DER 'LTiCHNIK 

Tin allgenieinen ist das Spracherkennungstelefon ein Tclefon. das Funktionen durchfiihren kann. wie Lauthoren und 
ein Abspieien der automatischen Antwortnachrichl in Ervviderung auf den gesproehenen Befehl des Benutzers, 

Die Funktionsweise des konventionellen Spracherkennungstelefons wird nachfolgend beschrieben. Als erstes gehl fur 
den anfanglichen RegistrierprozeB des Refcrenzsprachbefehls, wenn erkannl wird, daB die Funktionstaste und die Ein- 
sielltaste durch den Benutzer gedriickt werden, die Spracherkennungseinheit in die Sprachbefehlsaufzeichnungsbelriebs- 
art, wobei, wenn Sprachbetbhle durch das externe Mikrofon eingegeben werden und danach die Beendigungstaste ge- 
driiekt wird, die eingegebenen Sprachbefehle in digitale Daten unigewandelt werden, so daB sie aufgezeichnet/regislriert 
werden. Wenn die Aufzeichnung solcher Sprachbefehle beendet ist, werden die aufgezeichneten Sprachbefehle abge- 
spielt, urn durch den Benutzer bestatigt zu werden. Beispielsweise stellt sich das Aufzeichnungsverfahren eines Sprach- 
befehls, der das Abspieien des automatischen Anrufbeantworters bewirku wie folgt dar: Drucken des Sprachbefehisauf- 
zeichnungsknopfes unter den Funktionstasten — Driicken des Einstellknopfes "*" — Drucken des beabsichtigten Funk- 
tionsknopfes (das ist der Abspieiknopf) — Sprechen des Wortes "Abspieien" in das Mikrofon — Drucken des Beendi- 
gungsknopfes "#". 

Urn das Verfahren des Durchfuhrens des gesproehenen Befehls zu beschreiben, wenn der gesprochene Befehl durch 
den Benutzer eingegeben wird, wird dieser^nit dem aufgezeichneten/registrierten Sprachbefehl verglichen, wobei der 
gesprochene Befehl durchgefuhrl wird, wenn beide gleich sind. Die Identitat. des gesproehenen Befehls mit dem regi- 
strierten Sprachbefehl wird beurteilt durch Vergleichen von Sprachkennzeichen, basierend auf verschiedenen Frequen- 
zen in Abhangigkeit von der Lautstarke und dem Ton. 

Wenn beispielsweise der Benutzer "Abspieien" in das Mikrofon spricht, werden der gesprochene Befehl "Abspieien" 
und die registrierte Sprache "Abspieien" miteinander im Hinblick auf Sprachkennzeichen verglichen, und wenn es sich 
erweist, daB beide identisch sind, so wird die automatische Antwortvorrichtung gestartet, um aufgezeichnete Nachrich- 
ten abzuspielen, wohingegen wenn beide nicht identisch sind, der gesprochene Befehl "Abspieien" ignoriert wird. 

Der Spracherkennungspegel, der als Referenz fur das Beurteilen von Sprachkennzeichen verwendet wird, ist vorein- 
gestellt. Wenn beispielsweise der Spracherkennungspegel auf 70% eingestellt. wird, so wird der gesprochene Befehl, 
wenn er zu 70% oder mehr mit dem registrierten Befehl identisch ist, akzeptiert. Wie oben erwahnt, muB im Falle eines 
hoheren Spracherkennungspegels der gesprochene Befehl eine groBere Identitat mit dem registrierten Befehl haben, um 
akzeptiert zu werden, wohingegen im Falle eines niedrigeren Spracherkennungspegels der gesprochene Befehl trotz sei- 
ner niedrigereren Identitat mit dem registrierten Sprachbefehl akzeptiert werden kann. 

Das heiGt, wenn der Spracherkennungspegel hoher ist, so kann der gesprochene Befehl korrekt ausgefuhrt werden, 
aber die Erkennungsrate ist geringer, und im Gegensatz dazu ist, wenn der Spracherkennungspegel niedriger ist, die Er- 
kennungsrate hoher, aberes werden Fehlfunktionen verursacht. 

Das konventionelle Spracherkennungstelefon, wie es oben erwahnt wurde, hat den Nachteil. daB die Spracherken- 
nungsrate eines gesproehenen Befehls niedriger wird durch die Larmmischung im Falle eines niedrigeren Signal- 
Rausch-(S/N)-Verhaltnisses, wenn der Benutzer den anfanglichen Sprachbefehl als Referenzspracherkennungspegel re- 
gistriert. Weiterhin wird im Falle eines niedrigeren S/N-Verhaltnisses des tatsachlich gesproehenen Befehls die Sprach- 
erkennungsrate niedrig, obwohl der Referenzspracherkennungspegel anfanglich mit einem hoheren S/N-Verhaltnis auf- 
gezeiehnet. wurde. 

ZUSAMMENFASSUNG DER ERFINDUNG 

Soinit besteht eine Aufgabe der vorliegenden Erfindung darin, eine Spracherkennungsvorrichtung zu liefern, die den 
55 Spracherkennungspegel in Abhangigkeit voni Larmpegel, der mit einem gesproehenen Befehl gemischt ist, einstellen 
kann, um die Spracherkennungsrate zu verbessern. 

Eine andere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren fur das Steuern des Spracherkennungs- 
pegels in Abhangigkeit vom Larmpegel, der mit einem gesproehenen Befehl gemischt ist, zu steuern, um die Spracher- 
kennunasrate zu verbessern. 

60 GemSB der vorliegenden Erfindung umfaBl. eine Vorrichtung fur das Steuern des Spracherkennungspegels eines 
Spracherkennungstelefongerates in Abhangigkeit vom Umgebungsgerauschen einen Tonspeicher fur das Aufzeichnen 
der Sprachbefehle, einen Lannpegeldetektor fur das Erkennen des Pegels des Umgebungslarms. der durch das Mikrofon 
eingegeben wird, eine Stcuerung fur das Bestimmen des Spracherkennungspegels gemaB dem erkannten Lannpegei, und 
einen Sprachbefehlserkennungsprozessor fur das Verarbeiten einen gesproehenen Sprachbefehls auf der Basis des be- 

65 st.immten Spracherkennungspegels. 
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BESCHRErBUNG DER ZEK'HNUNGEN 

Fig. 1 isi oin Blockdiagramin, das ein SpracherkxMinungstelefongerai geniaB einer Ausluhrungsform dcr vorliegenden 
Erfindung /eigt: und 

Fig. 2 ist ein FluBdiagramm. das das Verfuhren des Sicuorns des Spracherkennungspegels genial einer Ausfiihrungs- 5 
Tonn dcr vorliegenden Erfindung zeigt. 

DETA rLLTERTE BESCHRErBUNG DER BEV'ORZUGTEN AUSHJIIRUNGSI'-'ORM 

Die Konliguration eines Spracherkennungsielefongerates gemiiB eincr Ausluhrungsform dcr vorliegenden Erfindung 10 
wircl nachfolgend unter Bezug an f Fig. 1 beschrieben. Die Steuerung 10 steuerl den gesaniien Bel rich des Spracherken- 
nungsielefongerats iniiiels des itu Speicher 34 gespeieherien Steuerprogranmis. Der Spreehkrcis 14 bildei eine Schnin- 
sielle verschiedener Tonsignale, Sprachsignale. ele. unler der Sieuerung der Steuerung 10. Das Gabelreiais H/S bildei 
oder unierbrieht meehaniseh den Sprachkanal zwischen deni Spreehkrcis 14 und der Teietbnleitung. wenn der Handap- 
parat abgehoben wird. Das Spreehrelais bildet oder unterbriehl den Sprachkanal /wise hen dent Spreehkrcis 14 und der 15 
Teietbnleitung unterder Sieuerung der Steuerung 10. Das Mikrofon 16 wandelt das Sprachsignal in ein elektrisehes Si- 
gnal, und der Lauisprccher 18 wandelt das elektrische Signal in ein Tonsignal, um einen horbaren Ton zu erzeugen. Der 
Lautesignaldelektor 34 ist mit der Teietbnleitung verbunden, die zuni Gabelreiais H/S fiifirt, uni somit das Lautesignal zu 
erkennen, das dureh die Telefonleiiung einpfangen wird. uni es weiter an die Steuerung 10 zu geben. 

Die ersten und zweiten CODECs 20, 22 wandeln das analoge (Ton-) Signal in cin digitales Signal und unigekehrt. Dcr 20 
Sprachbefehlserkennungsprozessor 24 verarbeitet den digiialisiert.cn Sprachbefehl, der von den ersien und zweiten 
CODECs 20. 22 einpfangen wird, und zeichnet das sich ergebende Signal ini Tonspeicher 26 auf, oder er erkennt. den 
Eingabesprachbefehl auf der Basis des Spraeherkennungspegels, der von der Sieuerung 10 geliefert wird. Wenn der Ein- 
gabesprachbefehl mil. deni registrierten Sprachbefehl, der ini Tonspeicher 26 gespeichert ist, identifiziert wird, so uber- 
fuhrt der obige Sprachbefehlserkennungsprozessor 24 Daten, die die Ausfuhrung des Eingabesprachbcfchls bewirken, an 25 
die Sieuerung 10. 

Der Lannpegeldetektor 28 besteht aus einem DC-Gleichrichter (Gleichstrorngleichrichier) 30 und einem A/D-Wand- 
ler 32, uni soniit das Pegelsignal als numerischc Daten gemaB detn Tonsignalpegel, dcr vom externen Mikrofon 16 ein- 
gegeben wird, zu erzeugen. Der DC-Gleichriehter 30 wandelt das analoge Tonsignal, das vom Mikrofon 16 angelegl 
wird, in ein DC-Signal (Gleichstromsignal). Der A/D-Wandler 32 wandelt den Signalpeget. basierend auf dcr GroBe dcs 30 
DC-Signals, das durch den DC-Gleichrichter 30 angelegt wird, in ein digitales Signal in Form numerischer Daren, um so 
das Pegelsignal auszugeben. Gewohnlicherweise wird der A/D Wandler, der in der Steuerung vorgesehen ist, verwendet, 
oder es kann ein getrennter A/D- Wandler zusatzlich vorgesehen werden. Der Speicher 36 speichcrt Steuerprogramme 
und Daten, die vom Betrieb des Telefongerat.s herruhren. Das Taste neingabereld 38 erzeugt Taste nbefjehle und Tastenda- 
ten fur das Steuern des Betriebs des Telefongerats. Das Anzeigefenster 40 zeigt die aktuellen Betriebszustande des Tele- 35 
fons unter der Steuerung der Steuerung 10 an. 

Nachtblgend wird der Betrieb eines Spracherkennungsteletbngerates geniaB einer Ausfuhrungsfonn der vorliegenden 
Erhndung im Detail unter Bezug auf Fig. 1 erlautert. Als ersies geht fur das an fang lie he Registrierverfahren des Reie- 
renzsprachbefehls, wenn erkannt wurde, daB die Fun kt ions taste und die Einstel haste durch den Benutzer in der Wartc- 
stellung gedriickt wurden, der Sprachbefehlserkennungsprozessor 24 in die Sprachbefehlsaufzeichnungsbetriebsart uber, 40 
wobei der durch den Benutzer eingegebene Referenzsprachbefehl zuni ersten CODEtC 20 geliefert wird, der den obigen 
analogen Sprachbefehl in einen digitalen Sprachbefehl umwandelt, um daraufhin den digitalisierten Sprachbefehl an den 
Sprachbefehlserkennungsprozessor 24 zu liefern. Und wenn der Benutzer den Beendigungsknopf auf dem Tasteneinga- 
befeld 38 driicki, speichert der Sprachbefehlserkennungsprozessor 24 einen solchen digitalisierten Sprachbefehl im Ton- 
speicher 26 unter der Steuerung der Steuerung 10. 45 

Unler Bezug auf F'ig. 2 wird der Betrieb des Spracherkennungstelefongerats in Erwiderung auf die Anforderung fur 
das Ausfuhren des durch den Benutzer eingegebenen Sprachbefehls nachtblgend beschrieben. Als erstes wird das Ver- 
fahren des Erkennens des Larmpegels in den Schritten 214—220 beschrieben. Wenn in Schritt 214 ein spezifiziertes Zeit- 
intervall vergangen ist, so geht die Steuerung 10 zu Schritt 216. Die Priifung des Ablauts eines spezifizierten Zeitinter- 
vails (gewohnlicherweise einige Millisekunden) dient dazu, das Larmpegelerkennungsverfahren periodisch in solchen 50 
Zeitintervallen durchzufuhren. In Schritt 216 erkennt die Sieuerung 10 den Signalpegel basierend auf der GroBe des 
Larins. der vom Mikrofon 16 eingegeben wird. 

Wic beim Larmpegelerkennungsverfahren wird das vom Mikrofon 16 eingegebene Larmsignal an den DC-Gleichrich- 
ler 30 gegeben, wobei die Direktstromkomponente eliminiert wird, und das sich ergebende Larmsignal ohne Gleieh- 
stronikomponenie an den A/D-Wandler 32 geliefert wird. wodurch es in binare Zifferndaten umgewandelt wird, die aus 55 
einer spezifizierten Zahl von Bits bestehen, die Larmpegel enisprechen. um dann weiter zur Steuerung 10 ubertragen zu 
werden. Die Zahl der Bits, die die obigen Larmpegel darstelll, wird durch die Zahl der Stufen der Spracherkennungspe- 
gel bestimmt. Beispielsweise konnen. wenn die Spracherkennungspegel in vier Stufen klassifiziert sind, die Sprachpegel 
dureh binare Zifferndaten von zwei Bits dargestellt werden. Wie oben beschrieben wurde, geht, wenn der Larmpegel in 
Schritt 216 erkannt wird, die Sieuerung 10 zu Schritt 218 weiter, um ein solches Larmsignal im Speicher 36 oder einem 60 
internen Hi lfs puffer zu speichern. 

Nach dem Speichern eines solchen erkannt en Larmpegel sign als, geht die Steuerung 10 zu Schritt 220 weiter. um dem 
Spraehbefehlserkennungsprozessor 24 den relevanten Spracherkennungspegel, der dem so erkannten Larmpegel ent- 
sprieht, mittels einer Lannpegelstufentabelle, die im Speicher 36 aufgezeichnet ist, mitzuteilen. Wenn die Steuerung 10 
beispielsweise binare Zifferndaten "01" vom Lannpegeldetektor 28 empfangt, so liefert sie den Spracherkennungspegel 65 
der zweiten Stufe, wie das in der folgenden Tabelle 1 aufgelistet ist, an den Sprachbefehlserkennungsprozessor 24. Ein 
Beispiel der Spracherkennungspegel gemaB den Larmpegeln ist in der folgenden Tabelle 1 aufgelistet. 
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Larm- Spracherken- Larmzus tand 

pegel nungspegel 

00 1. Stufe Zustand wie anfanglich registriert 

01 2. Stufe Gesprach moglich 

10 3. Stufe Gesprach ungtinstig 

11 4. Stufe Spracherkennung unmoglich 



Als niichst.es wire! das Verfahren des Ausfiihrens des Sprachbefehis in den Schritten 212-222 beschrieben. In Schritt 
212 pruft. die Sieuerung 10, ob der Spracherkennungsbefehl voni Sprachbefehlserkennungsprozessor 24 empfangen 
wird. 

Urn das Verfahren der Ausgabe des Sprachbefehis voni Sprachbefehlserkennungsprozessor 24 zu beschreiben, wird 

20 der vorn Mikrofon 16 eingegebene Sprachbefehl zunachst an den CODEC 20 angelegt, uiu in ein digiiales Signal umge- 
wandelt zu werden. Dannwird der vorn ersien CODEC 20 ausgegebene digitalisierte Sprachbefehl weiter an den Sprach- 
bcfehlserkennungsprozessor 24 angelegt, der dann einen solchen digitalisierten Sprachbefehl mil. detn Spracherken- 
nungspegel, der von der Steuerung 10 empfangen wird, nach dem Durchfiihren von Schritt 220 vergleicht. Da ein solches 
Sprachbefehlserkennungsverfahren durch Vergleichen des eingegebenen (gesprochenen) Sprachbefehis mil dem regi- 

25 strierten Sprachbefehl eine konventionelle Technik fur die Spracherkennungstelefongerate darstellt, wird hier keine de- 
taillierte Beschreibung gegeben. Zusammenfassend kann man sagen, wenn der Spracherkennungspegel der zweiten 
Stufe, auf den durch die Steuerung 10 Bezug genonimen wird, beispielsweise auf 80% eingestellt wird, so priitt. der 
Sprachbefehlserkennungsprozessor 24, ob sich die Sprachkennzeichen des gesprochenen und des gespeicherten Sprach- 
befehis zu 80% oder mehr ahneln. Wenn errnittelt wird, daB die gesprochenen und registrierten Sprachbefehle identisch 

30 sind. so liefert der Sprachbefehlserkennungsprozessor 24 den Spracherkennungsbefehl an die Steuerung 10. 

Daraufhin geht die Steuerung 10, wenn sie den Spracherkennungsbefehl in Schritt 212 empfangt, zu Schritt 222, urn 
einen solchen Spracherkennungsbefehl nach der auszufuhrenden Eunktion zu analysieren, und nach Beendigung der 
Analyse geht. die Steuerung 10 zu Schritt 224 weiter, urn die als Ergebnis der Analyse angeforderte Eunktion auszufiih- 
ren. Es erfolgt keine detaillierte Beschreibung des Verfahrens der Schritte 222 und 224, da sie auf einer konventionellen 

35 Technik beruhen. 

Wie oben beschrieben wurde, hat die vorliegende Erlindung den Vorteil, daB der Spracherkennungspegel unter Be- 
rucksichtigung des Umgebungslannpegels eingestellt werden kann, uni sornit. den ErYekt des Umgebungslarms zu mini- 
mieren und somit die Spracherkennungsrate zu verbessern. 

40 Patentanspruche 

1 . Vorrichtung zur Steuerung des Spracherkennungspegels eines Spracherkennungstelefongerat.es in Abhangigkeit 
voni Umgebungslarm, umfassend: 

einen Tonspeicher fur das Aufzeichnen von Sprachbefehlen; 
45 einen Lannpegeldetektor fur das Erkennen des Pegels des Urngebungslannes, der durch das Mikrofon eingegeben 

wird; 

eine Steuerung fur das Bestinimen des Spracherkennungspegels getnaB dem erkannten Larmpegel; und 
einen Sprachbefehlserkennungsprozessor fur das Verarbeiten des gesprochenen Sprachbefehis auf der Basis des be- 
stimmten Spracherkennungspegels. 
50 2. Vorrichtung zur Steuerung des Spracherkennungspegels in Abhangigkeit vorn Umgebungslarm nach Anspruch 

1, wobei der Lannpegeldetektor folgendes umfaBt: 

einen DC-Gleichrichter (Gleichstromgleichrichter) fur das Eliniinieren der Gleichstromkomponente aus dem Um- 
eebungslann; und 

einen Analog/Digital- Wandler fur das Umwandeln des Umgebungslarms ohne die Gleichstrornkoniponente in bi- 
55 niire Zifferndaten, die dem Larmpegel entsprechen. 

3. Verfahren in einern Spracherkennungstelefongerat, das einen Lannpegeldetektor fur das Erkennen des Pegels 
des Umgebungslarms und einen Sprachbefehlserkennungsprozessor fur das Verarbeiten eines gesprochenen 
Sprachbefehis auf der Basis des Spracherkennungspegels umfaBt, zur Steuerung des Spracherkennungspegels in 
Abhangigkeit vorn Umgebungslarm, wobei das Verfahren folgende Schritte umfaBt: 

60 periodisches Erkennen des Lannpegels durch den Lannpegeldetektor in spezifizierten Zeitintervallen; und 

Versorgen des Sprachbefehlserkennungsprozessors mit dem Spracherkennungspegel, der dem Larmpegel ent- 
spricht. 

4. Verfahren in einern Spracherkennungsteletbngerat, das einen Lannpegeldetektor fur das Erkennen des Pegels 
des Urngebungslannes und einen Sprachbefehlserkennungsprozessor fur das Verarbeiten eines gesprochenen 

65 Sprachbefehis auf der Basis des Spracherkennungspegels umfaBt, fur das Steuern des Spracherkennungspegels in 

Abhangigkeit vorn Umgebungslarm, wobei das Verfahren folgende Schritte umfaBt: 
periodisches Erkennen des Lannpegels zu spezifizierten Zeitintervallen mittels des Larmpegeldetektors; 
vorubergehendes Speichern des erkannten Lannpegels; und 
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Versorgen tics SprachbciehiserWHKngspiw^ssors mil clcni SpraL-hcrkennungspcgc^Hfr dent erkannien Liirmpegel 
enisprichi. 
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